在这项工作中,我们介绍了梯度暹罗网络(GSN)进行图像质量评估。所提出的方法熟练地捕获了全参考图像质量评估(IQA)任务中扭曲的图像和参考图像之间的梯度特征。我们利用中央微分卷积获得图像对中隐藏的语义特征和细节差异。此外,空间注意力指导网络专注于与图像细节相关的区域。对于网络提取的低级,中级和高级功能,我们创新设计了一种多级融合方法,以提高功能利用率的效率。除了常见的均方根错误监督外,我们还进一步考虑了批处理样本之间的相对距离,并成功地将KL差异丢失应用于图像质量评估任务。我们在几个公开可用的数据集上试验了提出的算法GSN,并证明了其出色的性能。我们的网络赢得了NTIRE 2022感知图像质量评估挑战赛1的第二名。
translated by 谷歌翻译
从2D前看声纳中检索声学图像中缺少的维度信息是水下机器人技术领域的一个众所周知的问题。有一些尝试从单个图像中检索3D信息的作品,该信息允许机器人通过飞行运动生成3D地图。但是,由于独特的图像配方原理,估计来自单个图像的3D信息面临严重的歧义问题。多视图立体声的经典方法可以避免歧义问题,但可能需要大量的观点来生成准确的模型。在这项工作中,我们提出了一种基于学习的新型多视角立体方法来估计3D信息。为了更好地利用来自多个帧的信息,提出了一种高程平面扫平方法来生成深度 - 齐路的成本量。正则化后的体积可以视为目标的概率体积表示。我们使用伪前深度来代表3D信息,而不是在高程角度上进行回归,而是可以避免声学成像中的2d-3d问题。只有两个或三个图像可以生成高准确的结果。生成合成数据集以模拟各种水下目标。我们还在大型水箱中构建了第一个具有准确地面真相的真实数据集。实验结果证明了与其他最新方法相比,我们方法的优势。
translated by 谷歌翻译
由于空间和时间变化的模糊,视频脱毛是一个高度不足的问题。视频脱毛的直观方法包括两个步骤:a)检测当前框架中的模糊区域; b)利用来自相邻帧中清晰区域的信息,以使当前框架脱毛。为了实现这一过程,我们的想法是检测每个帧的像素模糊级别,并将其与视频Deblurring结合使用。为此,我们提出了一个新颖的框架,该框架利用了先验运动级(MMP)作为有效的深视频脱张的指南。具体而言,由于在曝光时间内沿其轨迹的像素运动与运动模糊水平呈正相关,因此我们首先使用高频尖锐框架的光流量的平均幅度来生成合成模糊框架及其相应的像素 - 像素 - 明智的运动幅度地图。然后,我们构建一个数据集,包括模糊框架和MMP对。然后,由紧凑的CNN通过回归来学习MMP。 MMP包括空间和时间模糊级别的信息,可以将其进一步集成到视频脱毛的有效复发性神经网络(RNN)中。我们进行密集的实验,以验证公共数据集中提出的方法的有效性。
translated by 谷歌翻译
计算机断层扫描(CTA)图像上的三维(3D)肾脏解析具有极大的临床意义。肾脏,肾肿瘤,肾静脉和肾动脉的自动分割在基于手术的肾癌治疗方面受益匪浅。在本文中,我们提出了一个新的NNHRA-UNET网络,并使用一个基于它的多阶段框架来细分肾脏的多结构并参加KIPA2022挑战。
translated by 谷歌翻译
精确和实时轨道车辆本地化以及铁路环境监测对于铁路安全至关重要。在这封信中,我们提出了一种基于多激光器的同时定位和映射(SLAM)系统,用于铁路应用。我们的方法从测量开始预处理,以便去噪并同步多个LIDAR输入。根据LIDAR放置使用不同的帧到框架注册方法。此外,我们利用来自提取的轨道轨道的平面约束来提高系统精度。本地地图进一步与利用绝对位置测量的全局地图对齐。考虑到不可避免的金属磨损和螺杆松动,在手术期间唤醒了在线外在细化。在收集3000公里的数据集上广泛验证了所提出的方法。结果表明,所提出的系统与大规模环境的有效映射一起实现了精确且稳健的本地化。我们的系统已应用于运费交通铁路以监控任务。
translated by 谷歌翻译
在本文中,我们介绍了全球导航卫星系统(GNSS)辅助激光乐队 - 视觉惯性方案RAILTOMER-V,用于准确且坚固的铁路车辆本地化和映射。 Raillomer-V在因子图上制定,由两个子系统组成:辅助LiDar惯性系统(OLIS)和距离的内径综合视觉惯性系统(OVI)。两个子系统都利用了铁路上的典型几何结构。提取的轨道轨道的平面约束用于补充OLI中的旋转和垂直误差。此外,线特征和消失点被利用以限制卵巢中的旋转漂移。拟议的框架在800公里的数据集中广泛评估,聚集在一年以上的一般速度和高速铁路,日夜。利用各个传感器的所有测量的紧密耦合集成,我们的框架准确到了长期的任务,并且足够强大地避免了退行的情景(铁路隧道)。此外,可以使用车载计算机实现实时性能。
translated by 谷歌翻译
我们在本文中介绍Raillomer,实现实时准确和鲁棒的内径测量和轨道车辆的测绘。 Raillomer从两个Lidars,IMU,火车车程和全球导航卫星系统(GNSS)接收器接收测量。作为前端,来自IMU / Royomer缩放组的估计动作De-Skews DeSoised Point云并为框架到框架激光轨道测量产生初始猜测。作为后端,配制了基于滑动窗口的因子图以共同优化多模态信息。另外,我们利用来自提取的轨道轨道和结构外观描述符的平面约束,以进一步改善对重复结构的系统鲁棒性。为了确保全局常见和更少的模糊映射结果,我们开发了一种两级映射方法,首先以本地刻度执行扫描到地图,然后利用GNSS信息来注册模块。该方法在聚集的数据集上广泛评估了多次范围内的数据集,并且表明Raillomer即使在大或退化的环境中也能提供排入量级定位精度。我们还将Raillomer集成到互动列车状态和铁路监控系统原型设计中,已经部署到实验货量交通铁路。
translated by 谷歌翻译
提示调整(PT)是一个有前途的参数高效的方法,可以利用极大的预先培训的语言模型(PLM),它可以通过仅调整几个软提示来实现与全参数微调的可比性。但是,与微调相比,PT经验需要更多的培训步骤。为了探索我们通过重用培训的软提示和分享知识来提高PT的效率,我们经验探讨了在不同任务和模型中的软提示的可转换性。在交叉任务传输中,我们发现训练有素的软提示可以转移到类似的任务并初始化PT,以加速培训并提高性能。此外,为了探讨影响的因素,提示跨任务的可转移性,我们调查如何测量提示相似性,并发现激活神经元的重叠率与可转移性高度相关。在跨模型传输中,我们探索如何将PLM的提示投影到另一个PLM并成功培训了一种可以在类似任务上实现非琐碎的传输性能的投影仪。但是,使用预计提示初始化PT不起作用,这可能是由优化偏好和PLMS高冗余引起的。我们的研究结果表明,具有知识转移的改善PT是可能的并且有希望的,而提示的交叉任务转移性通常比跨模型转移性更好。
translated by 谷歌翻译
我们提出了一种准确而坚固的多模态传感器融合框架,Metroloc,朝着最极端的场景之一,大规模地铁车辆本地化和映射。 Metroloc在以IMU为中心的状态估计器上构建,以较轻耦合的方法紧密地耦合光检测和测距(LIDAR),视觉和惯性信息。所提出的框架由三个子模块组成:IMU Odometry,LiDar - 惯性内径术(LIO)和视觉惯性内径(VIO)。 IMU被视为主要传感器,从LIO和VIO实现了从LIO和VIO的观察,以限制加速度计和陀螺仪偏差。与以前的点LIO方法相比,我们的方法通过将线路和平面特征引入运动估计来利用更多几何信息。 VIO还通过使用两条线和点来利用环境结构信息。我们所提出的方法在具有维护车辆的长期地铁环境中广泛测试。实验结果表明,该系统比使用实时性能的最先进的方法更准确和强大。此外,我们开发了一系列虚拟现实(VR)应用,以实现高效,经济,互动的轨道车辆状态和轨道基础设施监控,已经部署到室外测试铁路。
translated by 谷歌翻译
随着服务机器人和监控摄像头的出现,近年来野外的动态面部识别(DFR)受到了很多关注。面部检测和头部姿势估计是DFR的两个重要步骤。经常,在面部检测后估计姿势。然而,这种顺序计算导致更高的延迟。在本文中,我们提出了一种低延迟和轻量级网络,用于同时脸部检测,地标定位和头部姿势估计。灵感来自观察,以大角度定位面部的面部地标更具挑战性,提出了一个姿势损失来限制学习。此外,我们还提出了不确定性的多任务损失,以便自动学习各个任务的权重。另一个挑战是,机器人通常使用武器基的计算核心等低计算单元,我们经常需要使用轻量级网络而不是沉重的网络,这导致性能下降,特别是对于小型和硬面。在本文中,我们提出了在线反馈采样来增加不同尺度的培训样本,这会自动增加培训数据的多样性。通过验证常用的更广泛的脸,AFLW和AFLW2000数据集,结果表明,该方法在低计算资源中实现了最先进的性能。代码和数据将在https://github.com/lyp-deeplearning/mos-multi-task-face-detect上使用。
translated by 谷歌翻译